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基于 改进 混沌 分 区 算法 的 模糊 信息 抽取 
万 福成 


(中 国民 族 语言 文字 信息 技术 教育 部 重点 实验 室 ， 兰 州 730000) 


摘 要 : 在 大 数据 环境 下 进行 模糊 信息 挖 据 抽 取 中 受到 数据 之 间 的 小 扰动 类 间 干 扰 的 影响 ， 导 致 信息 抽取 的 特征 聚 类 
性 不 好 ， 提 出 一 种 基于 改进 混沌 分 区 算法 的 模糊 信息 抽取 方法 。 对 高 维 数据 信息 流 进行 分 布 式 结构 重组 ， 以 Lorenz 混 
沌 吸引 子 作为 训练 测试 集 进行 大 数据 模糊 信息 抽取 的 自 适应 学 习 训 练 ， 采 用 相 空间 重 构 技术 对 大 数据 的 混沌 吸引 子 负 
载 特征 量 进行 自 相 关 特 征 匹配 处 理 ， 提 取 模 糊 信 息 的 平均 互信 息 特征 量 ， 结 合 关联 规则 模糊 配对 方法 进行 大 数据 混沌 
分 区 ， 实 现 模糊 信息 的 优化 聚 类 ， 根 据 数 据 聚 类 结果 实现 模糊 信息 准确 抽取 ， 对 抽取 的 高 维 模糊 信息 进行 特征 压缩 ， 
降低 计算 开销 。 仿真 结果 表明 ,采用 该 方法 进行 大 数据 样本 序列 的 模糊 信息 抽取 的 聚 类 性 较 好 ， 抗 类 间 扰 动能 力 较 强 ， 
模糊 信息 抽取 的 准确 概率 较 高 ， 在 数据 挖掘 和 特征 提取 中 有 具有 很 好 的 应 用 价值 。 
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(O Fuzzy information extraction based on improved chaotic partition algorithm 


Wan Fucheng 
(Key Laboratory of National Language Intelligent Processing, Lanzhou 730030, China) 


Abstract: In the environment of big data, the interference between the small disturbances of the data affects the fuzzy 


information extraction, which leads to the poor clustering characteristics of information extraction. We propose a fuzzy 


information extraction method based on the improved chaotic partition algorithm. The high dimensional data information flow 


is reorganized with distributed structure, and the Lorenz chaotic attractor is used as the training test set for the adaptive 


learning training of big data fuzzy information extraction. We use the phase space reconstruction technique match big data's 


chaotic attractor load with autocorrelation feature matching and extract the average mutual information feature quantity of 
fuzzy information. Through realizing the optimal clustering of fuzzy information, the accurate extraction of fuzzy information 
= is realized according to the result of data clustering, carries out the feature compression of the extracted high-dimensional 
fuzzy information, and reduces the computational overhead. The simulation results show that, using this method to extract 
fuzzy information from big data sample sequence has good clustering property, strong ability to resist inter-class disturbance, 
and high accurate probability of fuzzy information extraction. It has a good application value in data mining and feature 
extraction. 
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0 引言 关 的 算法 研究 受到 人 们 的 极 大 重视 。 
对 大 数据 环境 下 的 模糊 信息 抽取 方法 研究 是 建立 在 对 大 数 

在 大 规模 的 数据 中 进行 有 效 的 数据 区 分 和 挖掘 ， 如 何 利用 据 聚 类 和 信息 分 区 基础 上 的 ， 根 据 大 数据 的 分 类 属性 进行 信息 

和 管理 好 大 数据 成 为 人 们 需要 重点 解决 的 问题 ， 在 大 数据 环境 分 区 处 理 ， 提 取 大 数据 的 聚 类 信息 特征 ， 采 用 特征 分 解 和 关联 
下 ， 对 模糊 信息 进行 准确 的 特征 分 析 和 抽取 ， 人 快速 挖掘 人 们 需 规则 挖掘 方法 ， 实 现 对 大 数据 的 模糊 信息 抽取 ， 常 见 的 大 数据 
要 的 数据 信息 ， 对 数据 进行 整合 ， 实 现 信息 共享 和 准确 链接 传 模糊 信息 抽取 方法 有 HPCC (high performance computing cluster) 
输 ， 成 为 未 来 上 大 数据 分 析 的 重点 研究 课题 ， 研 究 大 抽取 方法 ，Roxie (HPCC data delivery engine ) 信息 聚 类 特征 扫 
数据 环境 下 的 模糊 信息 抽取 方法 , 在 云 数据 库 设 计 、 信息 检索 、 取 方 法 、 基 于 频繁 项 挖掘 的 特征 抽取 方法 、 基 于 模糊 C- 均 值 聚 
语义 分 析 以 及 信息 融合 等 领域 同样 具有 重要 的 应 用 价值 由， 相 类 的 模糊 数据 信息 抽取 方法 等 3, 通过 提取 模糊 大 数据 的 属 怕 
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混沌 分 区 算法 进行 特征 提取 和 数据 朝 
信息 优化 抽取 。 最 后 进行 实验 分 析 ， 
提高 大 数据 模糊 信息 确 性 方面 的 优越 


抽取 准 
息 分 布 式 结构 重组 及 相 空 间 重 构 
息 分 布 式 结构 重组 


信息 局 \ 


信 


取 ， 采 用 混沌 
其 规则 挖掘 ， 提 取 大 数据 中 的 模糊 信息 特征 量 
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其 中 : =N 一 (m 一 Dr ,表示 的 大 数据 搜索 特征 空间 的 散 入 维 
数 ，T 为 时 延 ，m 为 信息 的 语义 本 体 属性 的 层 数 ， 
S; =(% “'» Kir Cm- a) 称 为 相 空 s 间 的 特征 矢量 集 。 在 模糊 信 
息 分 布 式 结构 重组 模型 中 , 采用 模糊 集 搜索 方法 确定 Wm 和 时 间 


延迟 7 。 
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大 数据 相 空间 重 构 , 以 Lorenz 混沌 吸引 子 作为 训练 测试 集 进行 


大 数据 模糊 信息 抽取 的 自 适 应 学 习 训 
子 空间 分 别 为 9 和 @ ，4$ 由 模糊 
构成 ， 满 足 Lorenz 混沌 吸引 子 的 聚 类 属性 


练 [8] ,在 相 空 


间 中 的 
| 练 集 的 解 向 量 {51,5,,…， 
的 条 件 


两 个 


5 } 


P(s) ，i=1,2,…,n ，0Q 由 大 数据 模糊 测试 集 的 解 向 量 
{91,4;,…, 4 构成, 对 应 的 大 数据 模糊 信息 抽取 的 检测 概率 为 


信息 的 相 空 间 重 构 模 型 为 


HS)= -六 PC)log P(s,) @) 

i=l1 
H(Q)=—Y, P(gq,)log, P(g,)) (9) 

i=] 
其 中 : (5;) 表示 模糊 信息 的 语义 概念 集 s; 出 现在 混沌 分 区 区 
域 S 的 概率 , 类 似 地 ，P(q;) 表示 模糊 信息 的 本 体 特征 概念 集 
qj 出 现在 混沌 分 区 区 域 8 的 概率 。 在 满足 相似 度 一 直 的 条 件 

下 ， 求 相 空间 $ 中 满足 模糊 信息 聚 类 条 件 的 平均 互信 息 为 

1(Q,S)= H(Q0)-H(O|S) (5) 
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改进 的 混沌 分 区 算法 

在 对 高 维 数据 信息 流 进行 分 布 式 结构 重组 和 相 空 
处 理 的 基础 
文 提 出 一 种 基于 改进 混沌 分 
Lorenz 混沌 吸引 子 作为 训练 测试 集 ， 
区 ， 给 出 Lorenz 混沌 吸引 子 表达 式 : 


2.1 


区 算法 的 模糊 信 


dx/dt=—OXx+Oy 
dy/ dt=—xz+rx—y 
dz/ dt= xy—bz 
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息 抽取 方法 。 
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7 moe Xn) 
在 上 述 重 构 的 相 空 间 中 进行 自 适 应 学 习 ， 将 相 空 间 的 嵌入 
维 数 从 贡 增 加 到 m+1 时 ， 得 到 模糊 信息 抽取 的 混沌 分 区 的 聚 
类 中 心 优化 值 表示 为 
(m+1) I 
Rp = [Xo 天， 2 一 (a 一 Xi) 
09) 


CH 2 

= zo- XX, 2 | + [00+m — Nr | 

若 Rsv 比 R,,, 大 很 多 ， 表 示 模 糊 信 息 的 类 间 属 性 扰动 互 

不 影响 , 可 以 作为 模糊 聚 类 中 心 , 根据 这 一 特性 , 得 到 的 下 von 
为 站; 的 最 近邻 点 。 构 建 判决 统计 量 和 判决 准确 ， 在 混沌 分 区 


中 进行 模糊 信息 抽取 的 阔 值 判断 ， 得 到 判决 准则 为 
准则 1 
及 “ 一 信 1CnD+mr 一 n+Hmr 
(m+Dn m | n(n) 出 > R, (10) 
Ron Ron 
准则 2 
(m+l)n > 
(11) 


其 中 : Ri 为 Lorenz 混沌 吸引 子 的 分 区 阔 值 , 根据 经 验 值 ，R， 
可 取 15， 4w 表示 模糊 信息 混沌 分 区 的 判决 门限 ， 取 4w =2 。 
根据 上 述 分 析 ， 实 现 对 大 数据 环境 下 的 模糊 信息 混沌 分 
区 ， 结 合 判决 准则 和 判决 统计 量 进行 大 数据 模糊 信息 抽取 的 自 
适应 学 习 训 练 ， 并 进行 特征 提取 和 信息 抽取 [10] 。 
2.2 ”信息 抽取 和 特征 压缩 

段 设 模糊 信息 的 分 布 时 间 序 列 {X,},n=1,2,…,N ， 代 表 
原始 待 分 区 的 大 数据 特征 分 布 集 ， 在 混沌 分 区 处 理 下 ， 得 到 混 
沌 分 区 后 的 特征 分 布 Xw = X,, +7 ， 其 中 7 为 观测 噪声 。 在 4 
个 大 数据 的 分 布 信 源 中 ， 采 用 相 空 间 重 构 技 术 对 大 数据 的 混沌 


mh 


吸引 子 负载 特征 量 进 行 自 相关 特征 匹配 处 理 00， 得 到 特征 匹配 
输出 : 
XX 二 {XX， ;Xi yo CR. (12) 


令 Rj 是 d xL 的 矩阵， 在 混沌 分 区 的 闭 频繁 项 区 域 中 提 


取 模 糊 信息 的 平均 互信 息 特 征 量 为 
R={X,, X,, Xs X,Y (13) 
模糊 信息 的 关联 规则 向 量 集 为 
RR ={X,,X,,, ,XI, XX (14) 
采用 奇异 分 解 方 法 对 模糊 信息 特 和 和 E 信 进行 特征 分 得 
RR =V OV (5) 


对 元 +1 到 27 维 的 混沌 分 区 大 数据 ， 根 据 上 述 方法 类 推 ， 
得 到 模糊 信息 抽取 的 输出 特征 值 为 
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R={X4 1, Xa, E>. (17) 
及 及 = {Xan, Xa Karn} {Xan, Xa Xam) (18) 


其 中 : 模糊 信息 的 测试 集 V =[V, 久 ,…, WV,]e RW” 是正 交 的 ， 


即 VV ”= Ty ，》=diag(o1,0,,…,0,,) eR ， 混 沌 分 区 后 


的 关联 规则 模糊 特征 向 量 集 R7R 满足 类 
的 特征 值 聚 类 融合 度 排 序 为 
OO>0,>0;>…>0,.>0, (19) 
分 析 可 见 ， 采 用 上 述 方法 抽取 的 某 信息 维 数 较 高 ， 需 要 进 
行 特征 压缩 ， 特 征 压缩 的 步骤 描述 为 : 


间 平 衡 性 ， 得 到 抽取 
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特征 量 
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Ww 


a Ns = 
Ee 2 -而 | -而 | | (20) 
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散 度 和 矩阵 9， -yp (mn =—m)(m - 刚 其 中 下 = 立 员 的 加 
i=1 省 


权 平均 ; 
c) 采 用 判决 统计 回归 分 析 方 法 ， 在 高 维 空 


间 中 进行 特征 压 


二 的 
缩 ， 箱 出 特征 量 了 (部 中 = 二， 
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换 进 行 特 征 排 序 
人 
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d) 输 出 d 维 的 模糊 信息 抽取 特征 量 , 抽取 前 d 个 特征 向 量 


得 到 特征 排列 式 


27 (X); 


七 


al 


( 避 , ) 作为 训练 集 ， 


一 -一 一 


输出 yj j=1,2,…,d » 得 到 模 丫 变换 


加 权 乍 阵 丈 =[ 7, 区 ]; 


6) 输出 特征 压缩 后 的 信息 抽取 结果 为 浆 一 册 7 部 。 


通过 上 述 处 理 
降 到 4d 维 
3 ”仿真 实验 与 结果 分 析 


为 了 验证 本 文 方法 在 实现 大 数据 集 下 的 模 糙 取 的 应 
性 能 ， 进 行 仿真 实验 ， 实 验 采 用 Visual C++ 进行 算法 编译 ， 
用 MATLAB 进行 数据 处 理 的 编程 设计 ， 在 MapReduce 编程 


， 在 混沌 分 区 后 输出 的 模糊 信息 特 
， 从 而 降低 了 计算 开销 。 


吾 尽 ， 


Si 


7 
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Hadoop， 大 数据 处理 


框架 进行 数据 抽取 和 信息 聚 类 分 析 ， 大 数据 集 来 自 于 云 平台 


组 件 为 Thor (HPCC data refinery 


cluster ) ， 大 数据 测试 样本 集 为 OAEI (ontology alignment 
evaluation initiative)， 该 大 数据 库存 储 了 多 版 本 的 语义 数据 ， 作 
为 本 实验 的 数据 测试 集 能 具有 较 好 的 信息 覆盖 能 力 。 数 据 采 样 
的 时 间 间 隔 为 2.4s， 测 试 集 的 规模 为 2400Gbit, 大 数据 训练 集 的 
采样 样本 长 度 为 1024, Lorenz 混沌 吸引 子 的 初始 参数 值 设 定 为 
[x, yz] = [一 0,] ，[c,r,o=[16,45.92,4.0] ， 混 沌 分 区 迭代 
的 训练 步 长 为 h=0.01， 大 数据 聚 类 的 信息 分 布 区 间 为 
[0,1000] ， 在 信息 抽取 中 的 干扰 强度 为 -10dB， 根 据 上 述 仿真 
环境 和 参数 设 定 ， 进 行 大 数据 模糊 信息 抽取 仿真 实验 ， 取 三 组 
测试 样本 ， 得 到 时 域 波形 如 图 1 所 示 。 


0. 


8 四 二 = 
0 100 200 300 400 500 600 700 800 900 1000 
此 


(a) 第 一 组 


x(t) 
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(b) 第 二 组 


| 
-0.8 
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(oO) 第 三 组 


以 图 


的 各 组 样本 的 混沌 分 


图 


~ 


1 测试 样本 时 域 波形 


1 的 数据 样本 为 研究 对 象 ， 采 用 本 文 方法 进行 混沌 分 


区 聚 类 和 信息 抽取 ， 得 到 在 最 佳 的 相 空间 嵌入 维和 时 间 延 迟 下 
区 和 模糊 信息 抽取 结果 如 图 2~4 所 示 。 
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图 2 第 一 组 样本 的 混沌 分 区 和 信息 抽取 结果 


(a) 混 沌 分 


(b) 模 糊 信息 


图 3 第 二 组 样本 的 混沌 分 


Ixl 


由 取 
区 和 信息 抽取 结果 
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录用 稿 万 福成 : 基于 改进 混沌 分 区 算法 的 模糊 信息 抽取 
一 抽取 的 准确 度 较 高 ， 性 能 优 于 传统 方法 。 
a 1 - 表 1 模糊 信息 抽取 的 时 间 开 销 性 能 对 比 (单位 :s) 
十 样本 本 文 方法 FCM K-means 
| 第 一 0.24 1.43 1.25 
下 第 二 0.31 2.78 3.21 
| 第 三 绎 0.52 2.96 4.32 
中 表 2， 抽 取 精 度 性 能 对 比 (9) 
人 样本 本 文 方法 FCM 二 
(a) 混 沌 分 区 第 一 台 98.23 92.34 89.32 
第 二 99.34 94.93 92.45 
2 第 三 引 99.98 95.65 94.31 
9 4 ”结束 语 
2 在 大 数据 环境 下 , 对 模糊 信息 进行 准确 的 特征 分 析 和 抽取 ， 
es _ 快速 挖掘 人 们 需要 的 数据 信息 ， 对 数据 进行 整合 ， 实 现 信息 共 
ee 享 和 准确 链接 传输 ， 本 文 利用 混沌 的 随机 聚 类 性 和 抗 扰动 性 ， 
提出 一 种 基于 改进 混沌 分 区 算法 的 模糊 信息 抽取 方法 。 采 用 
(b) 模 糊 信息 抽取 Lorenz 混沌 吸引 子 进行 大 数据 混沌 分 区 ， 在 重 构 的 相 空 间 中 实 
图 4 第 三 组 样本 的 混沌 分 区 和 信息 抽取 结果 现 模糊 信息 抽取 ， 并 对 抽取 的 高 维 数据 进行 特征 降 维 。 研 究 得 


尘 


图 2 对 应 第 一 组 数据 样本 ,该 组 样本 的 时 域 波形 波动 较为 稳 。” 知 ， 本 文 方法 能 提高 模糊 信息 抽取 的 精度 ， 计 算 开销 较 小 ， 抗 
定 ， 表 明 该 组 数据 的 信息 覆盖 能 力 较 强 图 2 可 以 看 出 ， 类 间 干 扰 能 力 较 强 ， 性 能 优越 。 

利用 本 文 方法 进行 混沌 分 区 聚 类 和 信息 抽取 ， 得 到 在 最 佳 的 相 参考 文献 
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